본문 바로가기

갈아먹는 머신러닝 시리즈/검색엔진

(2)
갈아먹는 검색엔진 [2] Binary Independence Model 지난 포스팅 갈아먹는 검색엔진 [1] 검색의 확률론(probabilistics information retrieval) 들어가며 이전 포스팅에서 검색 엔진의 랭킹이란 무엇인지, 그리고 이를 확률의 관점에서는 어떻게 접근할 수 있는지 알아보았습니다. 살짝 복습해보면 문서와 질의어가 주어졌을 때, 해당 문서가 질의어와 관련이 있을 확률은 다음과 같이 표기할 수 있었습니다. 그리고 위 확률이 높은 순서대로 정렬해서 결과를 리턴하는 것이 최선이다! 라는걸 PRP(Probability Ranking Principle)라고 불렀습니다. 이번 포스팅에서는 좀 더 구체적으로 이 PRP로부터 파생한 Binary Independence Model에 대해서 알아보겠습니다. 수학적인 유도 과정이 꽤 많은데, 그 과정이 꽤나 ..
갈아먹는 검색엔진 [1] 검색의 확률론(probabilistics information retrieval) 들어가며 우리가 하루도 거르지 않고 사용하는 IT 기술 중에는 어떤 것들이 있을까요? 메신저, SNS, 동영상 등도 떠오르지만 뭐니뭐니해도 검색을 빼놓을 수 없습니다. 조그마한 검색창을 통해서 우리는 웹 상의 방대한 문서들 중에 우리가 원하는 정보만 쏙쏙 골라서 얻을 수 있습니다. 그런데 이러한 검색이 어떻게 동작하는 걸까요? 큰 틀에서 검색 시스템을 구축하기 위해서는 다음과 같은 요소들과 대표적인 기술들은 아래와 같습니다. (1) 문서를 오지게 모아서 저장한다. (2) 원본 문서를 색인을 만들기 적합한 형태로 가공한다. (3) 색인을 만든다. (4) 사용자가 검색어를 입력하면, 검색어에 가장 알맞은 문서를 찾아서 보여준다. 문서의 수집이나 가공, 색인도 물론 흥미로운 주제들이지만, 이 포스팅에서 다뤄볼..